Forwarded from Valuable AI
коллеги из университета Циньхуа выпустили работу под названием Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? (А точно ли обучение с подкреплением расширяет мыслительные возможности моделей?)
в ней они приходят к выводу, что нет, базовая модель остается лучше на длинной дистанции; я высказывал такого рода сомнение еще про Qwen, но тут уже полноценное подтверждение; отдельно хочу выразить восхищение визуальным оформлением результатов, очень доходчиво
в ней они приходят к выводу, что нет, базовая модель остается лучше на длинной дистанции; я высказывал такого рода сомнение еще про Qwen, но тут уже полноценное подтверждение; отдельно хочу выразить восхищение визуальным оформлением результатов, очень доходчиво
Forwarded from Научный опенсорс (Nikolay Nikitin)
Недавно в нашем чате обсуждали подборку опенсорс-библиотек для ИИ от ICT Moscow - и вот вышла расширенная версия:
В этот раз авторы собрали полноценную карту из 128 инструментов Open Source для ИИ-разработчиков за пять лет.
Посмотреть, что получилось, можно здесь:
- https://ict.moscow/research/russian-open-source-ai-map/ (с подробным описанием);
- https://ict.moscow/static/download/862d92ef-6bc9-3f88-b987-3aa6e2b3059f (чисто pdf);
- https://www.tg-me.com/ict_moscow_analytics/5403 (пост с превью аналитики).
За основу взята прошлая подборка, расширен период (2020-2025), доработан контент (в чате как раз обсуждали, что было упущено в первой итерации - например, LightAutoML)
На карте инструменты разбиты на группы по типам и по характеру прикладных задач, по ссылкам — карточки с краткими описаниями и ссылками на репозитории.
Также в приложении к карте отдельно собраны профили некоторых участников команд на GitHub, HuggingFace, ResearchGate, Habr и других платформах.
Про проекты команд из ИТМО тоже вспомнили - FEDOT, ProtoLLM, LLAMATOR, совместный со Сбером Stalactite.
В этот раз авторы собрали полноценную карту из 128 инструментов Open Source для ИИ-разработчиков за пять лет.
Посмотреть, что получилось, можно здесь:
- https://ict.moscow/research/russian-open-source-ai-map/ (с подробным описанием);
- https://ict.moscow/static/download/862d92ef-6bc9-3f88-b987-3aa6e2b3059f (чисто pdf);
- https://www.tg-me.com/ict_moscow_analytics/5403 (пост с превью аналитики).
За основу взята прошлая подборка, расширен период (2020-2025), доработан контент (в чате как раз обсуждали, что было упущено в первой итерации - например, LightAutoML)
На карте инструменты разбиты на группы по типам и по характеру прикладных задач, по ссылкам — карточки с краткими описаниями и ссылками на репозитории.
Также в приложении к карте отдельно собраны профили некоторых участников команд на GitHub, HuggingFace, ResearchGate, Habr и других платформах.
Про проекты команд из ИТМО тоже вспомнили - FEDOT, ProtoLLM, LLAMATOR, совместный со Сбером Stalactite.
Forwarded from Китай.AI
🔮 CN-AI-MODELS | ИИ модели Китая
🚀 Alibaba представил DianJin-R1 — мощную языковую модель для финансовых задач
Команда Alibaba Cloud и Университет Сучжоу разработали инновационную модель с открытым исходным кодом, которая превосходит аналоги в области финансового анализа.
🔍 В двух словах:
- Модель доступна в двух версиях: 7B и 32B параметров
- Обучена на уникальных финансовых датасетах + мультиагентный синтез данных
- Превышает производительность DeepSeek-R1 и QwQ в тестах
📊 Ключевые особенности:
1️⃣Открытые данные и модели:
- Дамп DianJin-R1-Data включает CFLUE, FinQA и CCC (китайская нормативная проверка)
- Модели на Hugging Face, ModelScope и GitHub
2️⃣Технологии обучения:
- Двухэтапная оптимизация: Supervised Fine-Tuning + Reinforcement Learning
- Система вознаграждений за структурированные выводы и точность
3️⃣Мультиагентный синтез:
- Платформа Tongyi Dianjin генерирует сложные финансовые кейсы через взаимодействие ИИ-агентов
⚙️ Технические детали:
• Использованы Qwen2.5-7B/32B-Instruct как база
• GRPO (Group Relative Policy Optimization) для RL-фазы
• Фичинг: 38k+ экзаменационных вопросов (CFLUE) + 8k англоязычных QA (FinQA)
🔥 Результаты тестов:
▫️ DianJin-R1-7B сравним с топовой QwQ при меньших ресурсах
▫️ DianJin-R1-32B лидирует во всех категориях
"Это не просто шаг вперед в финтехе — мы переосмыслили подход к обучению ИИ для регуляторных задач" — команда разработчиков.
Официальный сайт | Hugging Face | GitHub
Подробнее в оригинальной статье.
#КитайскийИИ #КитайAI #FinTech #LLM #OpenSource #Alibaba #Qwen
🚀 Alibaba представил DianJin-R1 — мощную языковую модель для финансовых задач
Команда Alibaba Cloud и Университет Сучжоу разработали инновационную модель с открытым исходным кодом, которая превосходит аналоги в области финансового анализа.
🔍 В двух словах:
- Модель доступна в двух версиях: 7B и 32B параметров
- Обучена на уникальных финансовых датасетах + мультиагентный синтез данных
- Превышает производительность DeepSeek-R1 и QwQ в тестах
📊 Ключевые особенности:
1️⃣Открытые данные и модели:
- Дамп DianJin-R1-Data включает CFLUE, FinQA и CCC (китайская нормативная проверка)
- Модели на Hugging Face, ModelScope и GitHub
2️⃣Технологии обучения:
- Двухэтапная оптимизация: Supervised Fine-Tuning + Reinforcement Learning
- Система вознаграждений за структурированные выводы и точность
3️⃣Мультиагентный синтез:
- Платформа Tongyi Dianjin генерирует сложные финансовые кейсы через взаимодействие ИИ-агентов
⚙️ Технические детали:
• Использованы Qwen2.5-7B/32B-Instruct как база
• GRPO (Group Relative Policy Optimization) для RL-фазы
• Фичинг: 38k+ экзаменационных вопросов (CFLUE) + 8k англоязычных QA (FinQA)
🔥 Результаты тестов:
▫️ DianJin-R1-7B сравним с топовой QwQ при меньших ресурсах
▫️ DianJin-R1-32B лидирует во всех категориях
"Это не просто шаг вперед в финтехе — мы переосмыслили подход к обучению ИИ для регуляторных задач" — команда разработчиков.
Официальный сайт | Hugging Face | GitHub
Подробнее в оригинальной статье.
#КитайскийИИ #КитайAI #FinTech #LLM #OpenSource #Alibaba #Qwen
huggingface.co
DianJin (Qwen DianJin)
Org profile for Qwen DianJin on Hugging Face, the AI community building the future.
Forwarded from Mr. Robot
| Привет, друг. На связи Эллиот.
Исследователи представили универсальную и переносимую постинструкционную технику инъекции промтов, которая успешно обходит иерархию инструкций и защитные механизмы ключевых современных ИИ‑моделей.
– В данном материале представлены технические детали этой методики обхода, а также процесс её разработки и расширения, в частности для систем с автономной природой.
#ИИ #Injection
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Matrix3D — модель, предлагающая решение сразу нескольких задач в рамках единой архитектуры: оценку положения камер, предсказание глубины и генерацию новых ракурсов.
Всю эту красоту обеспечивает модифицированный диффузионный трансформер, который обрабатывает изображения, параметры камер и карты глубины как взаимосвязанные модальности. Он не только упрощает традиционный пайплайн (нет зависимостей от отдельных алгоритмов SfM или MVS), но и повышает точность за счет уникальной оптимизации.
Ключевая особенность Matrix3D — маскированное обучение, позаимствованное из методов MAE. Модель тренируется на частично заполненных данных: парах «изображение-поза» или «изображение-глубина». При этом модель учится «достраивать» недостающие модальности, что позволяет комбинировать входы и выходы во время инференса. Например, можно добавить карту глубины с физического датчика или сгенерировать новые ракурсы на основе всего двух изображений.
Результаты тестов с задачей оценки поз на датасете CO3D Matrix3D обходят специализированные методы (RayDiffusion): точность определения положения камеры достигает 96,3% против 92,4% у конкурентов.
В синтезе видов модель демонстрирует PSNR 20,45 против 19,22 у SyncDreamer, а в оценке глубины — AbsRel 0,036 против 0,064 у Metric3D. При этом Matrix3D не требует отдельных моделей для каждой задачи, все решается в рамках одной модели.
Практическая ценность модели — в ее адаптивности. Например, для 3D-реконструкции из одного кадра Matrix3D сначала генерирует недостающие ракурсы, оценивает их позы и глубину, а затем оптимизирует сцену через 3D Gaussian Splatting.
Для работы с несколькими кадрами без известных поз модель сама восстанавливает параметры камер, что раньше требовало отдельного этапа с COLMAP. Все это реализовано в репозитории с готовыми скриптами — от синтеза видов до полной реконструкции.
Конечно, есть нюансы: качество облаков точек пока уступает другим методам (GeoMVSNet). Но даже имеющиеся результаты достаточны для инициализации 3DGS, а главное — весь процесс занимает несколько минут на одной RTX 3090. Для сравнения: CAT3D, хотя и точнее в синтезе, требует 16х A100 и оптимизации под каждую сцену.
@ai_machinelearning_big_data
#AI #ML #Photogrammetry #Matrix3D #Apple
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Научный опенсорс (Nikolay Nikitin)
На Хабре вышла статья Дмитрия Кабанова "«Теплый ламповый» опенсорс — новые мега-подборки, пет-проекты, комиксы и книги, абсурдные и полезные лицензии".
В ней - подборка интересных opensource-related материалов: интересных репозиториев, книг, awesome-листов и т.д.
Среди прочего, упоминают про научный код и нашего ИИ-ассистента для опенсорс-разработки OSA, про которого мы недавно рассказывали в канале.
В ней - подборка интересных opensource-related материалов: интересных репозиториев, книг, awesome-листов и т.д.
Среди прочего, упоминают про научный код и нашего ИИ-ассистента для опенсорс-разработки OSA, про которого мы недавно рассказывали в канале.
Forwarded from Machinelearning
NeMo-Inspector от NVIDIA — это инструмент, который превращает анализ генераций из рутины в осмысленный процесс. Он не просто показывает результаты, а помогает их систематизировать, сравнивать и даже чистить данные.
NeMo-Inspector не просто просмотрщик логов. Это полноценная среда, где можно менять промпты на лету, маркировать проблемные данные и проверять гипотезы.
Для инженеров, которые хотят не просто получать ответы от LLM, но и понимать, как они рождаются, NeMo-Inspector мастхэв. Он не даст магии, зато сэкономит часы ручного разбора и поможет найти слабые места даже в сложных пайплайнах, а поддержка Markdown, LaTeX и подсветки синтаксиса сделает работу с математическими задачами или кодом менее муторной.
Гибкость проводимого анализа - особенность NeMo-Inspector. Вы можете сравнивать, как одна модель справляется с разными параметрами (температура, top_p) или как разные модели решают одну задачу. Допустим, проверяете, повышает ли CoT точность ответов. NeMo-Inspector выведет результаты бок о бок, а еще посчитает статистику: доля правильных ответов, «уверенность» модели (persistence) или кастомные метрики, которые можно задать самостоятельно через Python-функции.
Из практических кейсов: NeMo-Inspector помог «почистить» синтетический датасет GSM-Plus, где 46,99% данных оказались проблемными (в некоторых вопросах было по два знака вопроса — модель путалась, на какой отвечать). В проекте с OpenMath-Mistral-7B выяснилось, что 26% ошибок связаны с падением качества сгенерированного кода. После доработки датасета точность модели выросла на 4,17%.
@ai_machinelearning_big_data
#AI #ML #LLM #NeMoInspector #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from LLM Arena
Мы постарались учесть всё, что мешало удобному анализу, и улучшили основные элементы. Теперь он точнее, аккуратнее и лучше отражает реальную картину:
График больше не выглядит сжатым и перегруженным, что делает его более читаемым и облегчает сравнение моделей между собой.
Они помогают оценить статистическую надежность Elo-рейтинга каждой модели.
Теперь вы можете настраивать баланс между input- и output-токенами в зависимости от ваших задач.
Позволяет "очистить" рейтинг от влияния стиля – длины текста, форматирования (списков, выделений).
График построен на свежих данных с основного лидерборда LLM Arena.
Найти график можно на сайте llmarena.ru во вкладке Таблица лидеров
А вы уже нашли свою модель?
❤️ — да, и она стоит своих денег
🔥 — пока только ищу, спасибо за график
Please open Telegram to view this post
VIEW IN TELEGRAM
NVIDIA just open sourced Open Code Reasoning models - 32B, 14B AND 7B - APACHE 2.0 licensed 🔥
> Beats O3 mini & O1 (low) on LiveCodeBench 😍
Backed by OCR dataset the models are 30% token efficient than other equivalent Reasoning models
Works with llama.cpp, vLLM, transformers, TGI and more - check them out today!!
https://huggingface.co/nvidia/OpenCodeReasoning-Nemotron-32B
> Beats O3 mini & O1 (low) on LiveCodeBench 😍
Backed by OCR dataset the models are 30% token efficient than other equivalent Reasoning models
Works with llama.cpp, vLLM, transformers, TGI and more - check them out today!!
https://huggingface.co/nvidia/OpenCodeReasoning-Nemotron-32B
Forwarded from Valuable AI
поздравляю всех с Днем Победы в Великой Отечественной войне!
цифровая вычислительная техника не успела внести вклад в исход войны, а вот аналоговая вполне успела; на картинке прибор управления артиллерийским зенитным огнем ПУАЗО-3; между прочим, уже электрический
к созданию таких приборов приложило руку немало ученых, которые потом стали отцами искусственного интеллекта в СССР: академик Лебедев, член-корр. Преснухин, гораздо менее известный профессор Гутенмахер, и многие другие
на мой взгляд важно помнить и подвиг солдат на фронте, и подвиг тружеников в тылу, в том числе ученых
еще раз с Днем Победы!
цифровая вычислительная техника не успела внести вклад в исход войны, а вот аналоговая вполне успела; на картинке прибор управления артиллерийским зенитным огнем ПУАЗО-3; между прочим, уже электрический
к созданию таких приборов приложило руку немало ученых, которые потом стали отцами искусственного интеллекта в СССР: академик Лебедев, член-корр. Преснухин, гораздо менее известный профессор Гутенмахер, и многие другие
на мой взгляд важно помнить и подвиг солдат на фронте, и подвиг тружеников в тылу, в том числе ученых
еще раз с Днем Победы!
Forwarded from Machinelearning
Tencent выпустила HunyuanCustom, фреймворк, который не только генерирует видео по заданным условиям, но и умеет сохранять консистентность субъектов, будь то человек, животное или предмет. Модель справляется даже с мультисубъектными сценами: в демо-роликах люди естественно взаимодействуют с предметами, а текст на упаковках не плывет между кадрами.
В основе модели лежит улучшенный механизм слияния текста и изображений через LLaVA. Например, если вы загружаете фото женщины в платье и текст «танцует под дождем», система анализирует оба инпута, связывая описание с визуальными деталями.
Но главное - это модуль временной конкатенации: он «растягивает» особенности изображения вдоль временной оси видео, используя 3D-VAE. Это помогает избежать «прыгающих» лиц или внезапных изменений фона, проблемы, которая характерна даже для топовых моделей видеогенерации.
Tencent переработали и пайплайн аудио. Для синхронизации звука с движениями губ или действиями в кадре HunyuanCustom использует AudioNet, модуль, который выравнивает аудио- и видеофичи через пространственное кросс-внимание.
Фреймворк поддерживает возможность замены объекта в готовом ролике (скажем, подставить новую модель кроссовок в рекламу), модель сжимает исходное видео в латентное пространство, выравнивает его с шумными данными и встраивает изменения без артефактов на границах.
Экспериментальные тесты показали, что HunyuanCustom обходит конкурентов по ключевым метрикам. Например, Face-Sim (сохранение идентичности лица) у Tencent — 0.627 против 0.526 у Hailuo, а с Keling, Vidu, Pika и Skyreels разрыв еще больше.
⚠️ Для работы модель требует минимум 24 ГБ видеопамяти для роликов 720p, но чтобы раскрыть все возможности, разработчики рекомендуют 80 ГБ VRAM.
Код и чекпоинты уже доступны в открытом доступе, а в репозитории есть примеры запуска как на нескольких GPU, так и в экономном режиме для потребительских видеокарт.
@ai_machinelearning_big_data
#AI #ML #Video #HunyuanCustom #Tencent
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Хотите быстро разобраться в PyTorch и написать свою нейросеть? Мы подготовили для вас вебинар, где на практике разберём все этапы создания ML-модели.
Вебинар проведет Владислав Агафонов — ML-инженер, ранее работал в Yandex и Huawei.
Что будет на вебинаре?
🕗 Встречаемся 14 мая в 18:30 по МСК, будет много практики, ответы на вопросы и полезные инсайты от эксперта.
Please open Telegram to view this post
VIEW IN TELEGRAM